%	\chapter{生成函数}
	引入三种概率论中的常见函数，它们是为了方便计算独立随机变量的和的分布而引入的。
	\section{概率母函数}
	\begin{definition}[概率母函数]
		设$X$是非负的、取整数值的离散型随机变量。$s\in[-1,1]$，则称
		\begin{equation}
		g(s)=Es^{X}
		\end{equation}
		是$X$的概率母函数。
	\end{definition}
	由于
	\begin{equation}
	g(s)=\sum_{i=0}^{\infty}s^iP(X=i)
	\end{equation}
	所以$g(s)$是绝对收敛的。
	
	概率母函数具有如下性质：
	\begin{property}
		\begin{enumerate}
			\item 对于$\forall k\in \mathbb{N}$，都有
			\begin{equation}
			P(X=k)=\frac{g^{(k)}(0)}{k!}
			\end{equation}
			
			\item $X$的期望为
			\begin{equation}
			EX=g'(1)
			\end{equation}
			
			\item $X$的方差为
			\begin{equation}
			VarX=g''(1)+g'(1)-(g'(1))^2
			\end{equation}
			\item 如果随机变量$X_1,\cdots,X_n$相互独立，$g_j(s)$是$X_j$的概率母函数，则$Y=X_1+\cdots+X_n$的概率母函数是
			\begin{equation}
			g_Y(s)=\prod_{i=j}^n g_j(s)
			\end{equation}
		\end{enumerate}
	\end{property}
	\begin{proof}
		\begin{enumerate}
			\item 容易看出$g(s)$及各级导数都在$[-1,1]$内闭一致收敛，所以可以逐项求导。所以
			\begin{equation}
			g^{(k)}(s)=\sum_{i=k}^{\infty}\frac{i!}{(i-k)!}s^{i-k}P(X=i)
			\end{equation}
			即
			\begin{equation}
			\frac{g^{(k)}(0)}{k!}=P(X=i)
			\end{equation}
			
			\item 我们有
			\begin{equation}
			g'(1)=\sum_{i=1}^{\infty}iP(X=i)=EX
			\end{equation}
			
			\item 由于
			\begin{equation}
			g'(1)+g''(1)=\sum_{i=1}^{\infty}i+i(i-1)P(X=i)=\sum_{i=1}^{\infty}i^2P(X=i)=EX^2
			\end{equation}
			从而根据$VarX=EX^2-E^2X$，有
			\begin{equation}
			VarX=g''(1)+g'(1)-(g'(1))^2
			\end{equation}
			\item 因为$X_1,\cdots,X_n$是相互独立的，因此$s^{X_1},\cdots,s^{X_n}$也是相互独立的。所以由数学期望的性质，有
			\begin{equation}
			g_{Y}(s)=Es^{\sum_{j=1}^{n}X_j}=\prod_{j=1}^{n}Es^{X_j}=\prod_{j=1}^n g_j(s)
			\end{equation}
		\end{enumerate}\qed
	\end{proof}

	性质一表明，概率母函数与概率分布是一一对应的；性质二给出了由概率母函数计算期望和方差的方法；性质三则给出了研究独立随机变量之和的分布的方法。
	
	\begin{theorem}[常见分布的概率母函数]
	\begin{enumerate}
		\item 对于二项分布$X\sim B(n,p)$，有
		\begin{equation}
		g(s)=(1-p+sp)^n
		\end{equation}
		\item 对于泊松分布$X\sim P(\lambda)$，有
		\begin{equation}
		g(s)=e^{\lambda(s-1)}
		\end{equation}
		\item 对于几何分布$X\sim G(p)$，有
		\begin{equation}
		g(s)=\frac{sp}{1-s(1-p)}
		\end{equation}
		\item 对于帕斯卡分布$X\sim Pas(r,p)$，有
		\begin{equation}
		g(s)=\left(\frac{sp}{1-s(1-p)}\right)^r
		\end{equation}
	\end{enumerate}
	\end{theorem}
	\begin{proof}
		\begin{enumerate}
			\item 由二项式定理可得
			\begin{equation}
			Es^X=\sum_{i=1}^n\begin{pmatrix}
			n\\i
			\end{pmatrix}p^i(1-p)^{n-i}=(1-p+sp)^n
			\end{equation}
			
			\item 考虑到
			\begin{equation}
			e^x=\sum_{i=0}^{\infty}\frac{x^i}{i!}
			\end{equation}
			故
			\begin{equation}
			Es^X=\sum_{i=1}^{\infty}\frac{\lambda^i}{i!}e^{-\lambda}s^i=\sum_{i=1}^{\infty}\frac{(\lambda s)^i}{i!}e^{-\lambda}=e^{\lambda(s-1)}
			\end{equation}
			
			\item 考虑到
			\begin{equation}
			\frac{1}{1-x}=\sum_{i=1}^{\infty}x^{i-1}
			\end{equation}
			故
			\begin{equation}
			Es^X=\sum_{i=1}^{\infty}s^i(1-p)^{i-1}p=\sum_{i=1}^{\infty}sp(s(1-p))^{i-1}=\frac{sp}{1-s(1-p)}
			\end{equation}
			
			\item 对$g(s)$进行泰勒展开可得
			\begin{equation}
			g(s)=(sp)^r\sum_{i=0}^{\infty}\begin{pmatrix}
			r+i-1\\r-1
			\end{pmatrix}(s-sp)^i=\sum_{k=r}^{\infty}\begin{pmatrix}
			k-1\\r-1
			\end{pmatrix}p^r(1-p)^{k-r}s^k
			\end{equation}
			由于概率母函数与分布列是一一对应的，上式的$s^i$对应的系数就是相应的分布列：
			\begin{equation}
			P(X=k)=\begin{pmatrix}
			k-1\\r-1
			\end{pmatrix}p^r(1-p)^{k-r}
			\end{equation}
			这正是帕斯卡分布。
		\end{enumerate}\qed
	\end{proof}
	
	从二项分布的母函数的形式中，可以很明显地看出，二项分布是随$n$可加的。也就是说：
	\begin{theorem}[二项分布关于$n$的独立可加性]
		对于独立的随机变量$X_1,\cdots,X_k$服从二项分布$X_i\sim B(n_i,p)$，则它们的和$Y=X_1+\cdots+X_k$也服从二项分布$Y\sim B(n_1+\cdots+x_k,p)$。
	\end{theorem}
	类似地，还有泊松分布$P(\lambda)$是关于$\lambda$独立可加的；帕斯卡分布是关于$r$独立可加的，更进一步，是$r$个几何分布独立地加起来的。
	
	概率母函数的其他应用也是利用了独立分布的和等于母函数的乘积这个性质。比如说，投掷$n$颗骰子，求总点数为$k=n+6$的概率。此时只要设$X_1,\cdots,X_n$分别是第$i$颗骰子的点数，它们相互独立且同分布，总点数为$Y$。那么，单个骰子的母函数是
	\begin{equation}
	g_{X_i}(s)=Es^{X_i}=\frac{s(1-s^6)}{6(1-s)}
	\end{equation}
	那么$Y$的概率母函数则是
	\begin{equation}
	g_{Y}(s)=\prod_{i=1}^n g_{X_i}(s)=\frac{s^n(1-s^6)^n}{6^n(1-s)^n}
	\end{equation}
	将$g_Y(s)$进行泰勒展开，有
	\begin{equation}
	g_{Y}(s)=\frac{s^n(1-s^6)^n}{6^n}\sum_{j=0}^{\infty}\begin{pmatrix}
	j+n-1\\n-1
	\end{pmatrix}s^j
	\end{equation}
	展开式的$s^{n+6}$这一项的系数就是所求的概率，也就是将$(1-s^6)^n$展开，对于
	\begin{equation}
	g_{Y}(s)=\sum_{k=0}^n \frac{(-1)^k}{6^n}\begin{pmatrix}
	n\\k
	\end{pmatrix}s^{n+6k}\sum_{j=0}^{\infty}\begin{pmatrix}
	j+n-1\\n-1
	\end{pmatrix}s^j
	\end{equation}
	而言，存在当$k=0,\ j=6$和$k=1,\ j=0$两种情形。它们的系数和就是$s^{n+6}$这一项的系数。
	\begin{equation}
	P(Y=n+6)=\frac{1}{6^n}\left[\begin{pmatrix}
	n+5\\n-1
	\end{pmatrix}-n\right]
	\end{equation}	
	
	\section{特征函数}
	\begin{definition}[复随机变量及期望]
		若$X,Y$是实随机变量，$i$为虚数单位，$Z=X+iY$。如果$EX$，$EY$存在，则$EZ=EX+iEY$。
	\end{definition}
	\begin{definition}[特征函数]
		对于随机变量$X$，我们称
		\begin{equation}
		\phi(t)=Ee^{itX},\quad t\in\mathbb{R}
		\end{equation}
		为$X$的特征函数。
	\end{definition}
	容易知道，对于离散型随机变量，分布列为$P(X=x_k)$，有
	\begin{equation}
	\phi(t)=\sum_{k}e^{itk}P(X=x_k)
	\end{equation}
	对于连续型随机变量，概率密度为$f(x)$，有
	\begin{equation}
	\phi(t)=\int_{\mathbb{R}}e^{itx}f(x)dx
	\end{equation}
	
	特征函数的本质是傅里叶逆变换，从而特征函数与概率分布是一一对应的。由特征函数的定义知道，给定了概率分布一定能计算出特征函数，而下面的逆转公式则可以由特征函数计算出概率分布。
	\begin{theorem}[逆转公式]
		设$\phi(t)$是随机变量$X$的特征函数，$F$是分布函数，则对应任意的$F$的连续点$a,b$，都有
		\begin{equation}
		F(b)-F(a)=\frac{1}{2\pi}\lim\limits_{T\to\infty}\int_{-T}^T \frac{e^{-ita}-e^{-itb}}{it}\phi(t)dt
		\end{equation}
	\end{theorem}
	可以对逆转公式作推广。对于$\forall a,b$，都有
	\begin{equation}
	\frac{1}{2\pi}\lim\limits_{T\to\infty}\int_{-T}^{T}\frac{e^{-ita}-e^{-itb}}{it}\phi(t)dt=P(a<X<b)+\frac{P(X=a)+P(X=b)}{2}
	\end{equation}
	
	特征函数具有如下性质：
	\begin{property}
		\begin{enumerate}
			\item \begin{equation}
			\phi(0)=1,\ |\phi(t)|\leq 1, \phi^*(t)=\phi(-t)
			\end{equation}
			
			\item $\phi(t)$在$\mathbb{R}$上一致连续
			\item 若$EX^k$存在，则
			\begin{equation}
			\phi^{(k)}(t)=i^k E(X^k e^{itX})
			\end{equation}
			\item 如果$X_1,\cdots,X_n$相互独立，分别有特征函数$\phi_i(t)$，则$Y=X_1+\cdots+X_n$有特征函数
			\begin{equation}
			\phi_{Y}(t)=\prod_{k=1}^n \phi_k(t)
			\end{equation}
		\end{enumerate}
	\end{property}
	
	\begin{proof}
		\begin{enumerate}
			\item 首先，我们有\begin{equation}\begin{aligned}
			\phi(0)=\int_{\mathbb{R}}f(x)dx=1
			\end{aligned}\end{equation}
			然后，由三角不等式，有
			\begin{equation}
			|\phi(t)|=|E\cos (tX)+iE\sin (tX)|\leq \sqrt{|E\cos^2(tX)+E\sin^2(tX)|}=1
			\end{equation}
			最后，由定义，有
			\begin{equation}
			\phi(-t)=Ee^{i(-t)X}=E(e^{itX})^*=(Ee^{itX})^*=\phi^*(t)
			\end{equation}
			
			\item 对于$\forall s,t$有
			\begin{equation}
			|\phi(t)-\phi(s)|=|E(e^{itX})-E(e^{isX})|=\left|\int_{\mathbb{R}}(e^{itx}-e^{isx})f(x)dx\right|
			\end{equation}
			而由绝对值不等式，有
			\begin{equation}
			\left|\int_{\mathbb{R}}(e^{itx}-e^{isx})f(x)dx\right|\leq \int_{\mathbb{R}}\left|(e^{itx}-e^{isx})\right|f(x)dx
			\end{equation}
			我们对$x$分为较大和较小的两部分，对积分进行估计：
			\begin{equation}\begin{aligned}
			\int_{\mathbb{R}}\left|(e^{itx}-e^{isx})\right|f(x)dx=&\int_{|x|\leq M}|e^{i(t-s)x}-1|f(x)dx\\
			&+\int_{|x|> M}|e^{i(t-s)x}-1|f(x)dx
			\end{aligned}\end{equation}
			其中第一项绝对值中的部分，对于$\forall \epsilon>0,\ \exists\delta>0,\ s.t.\ |t-s|<\delta$时，
			\begin{equation}
			|e^{i(t-s)x}-1|<\frac{\epsilon}{2}
			\end{equation}
			而第二项则由无穷积分收敛的柯西准则来控制。对于$\forall \epsilon>0,\ \exists M,\ s.t.\ $
			\begin{equation}
			\int_{|x|>M}f(x)dx\leq \frac{\epsilon}{2}
			\end{equation}
			于是，我们得到对于$\forall\epsilon>0,\ \exists M>0,\ \delta>0,\ s.t.\ \forall|s-t|<\delta$时，有
			\begin{equation}
			|\phi(s)-\phi(t)|<\epsilon
			\end{equation}
			成立。
			
			\item 含参积分
			\begin{equation}
			\phi(t)=\int_{-\infty}^{+\infty}e^{itx}f(x)dx
			\end{equation}
			显然对$t\in\mathbb{R}$一致收敛，故可交换求导和求积分顺序。因此
			\begin{equation}
			\phi^{(k)}(t)=\int_{\mathbb{R}}\frac{d^k}{dt^k}e^{itx}f(x)dx=i^k\int_{\mathbb{R}}x^ke^{itx}f(x)dx=i^kE(X^ke^{itX})
			\end{equation}
			特别地，有
			\begin{equation}
			\phi^{(k)}(0)=i^k EX^k
			\end{equation}
			
			\item 根据定义，对于独立的$X_1,\cdots,X_n$而言，有
			\begin{equation}
			\phi_{Y}(t)=Ee^{it\sum_{k=1}^n X_k}=E\prod_{k=1}^n e^{itX_k}=\prod_{k=1}^n Ee^{itX_k}=\prod_{k=1}^n \phi_k(t)
			\end{equation}
		\end{enumerate}\qed
	\end{proof}

	常用分布的特征函数如下：
	\begin{theorem}[常用分布的特征函数]
		\begin{enumerate}
			\item 对于二项分布$X\sim B(n,p)$，有
			\begin{equation}
			\phi(t)=(1-p+pe^{it})^n
			\end{equation}
			\item 对于泊松分布$X\sim P(\lambda)$，有
			\begin{equation}
			\phi(t)=e^{\lambda(e^{it}-1)}
			\end{equation}
			\item 对于几何分布$X\sim G(p)$，有
			\begin{equation}
			\phi(t)=\frac{pe^{it}}{1-(1-p)e^{it}}
			\end{equation}
			\item 对于帕斯卡分布$X\sim Pas(r,p)$，有
			\begin{equation}
			\phi(t)=\left(\frac{pe^{it}}{1-(1-p)e^{it}}\right)^r
			\end{equation}
			\item 对于均匀分布$X\sim U(a,b)$，有
			\begin{equation}
			\phi(t)=\frac{e^{itb}-e^{ita}}{it(b-a)}
			\end{equation}
			\item 对于指数分布$X\sim \varepsilon(\lambda)$，有
			\begin{equation}
			\phi(t)=\left(1-\frac{it}{\lambda}\right)^{-1}
			\end{equation}
			\item 对于伽马分布$X\sim \Gamma(\alpha,\beta)$，有
			\begin{equation}
			\phi(t)=\left(1-\frac{it}{\beta}\right)^{-\alpha}
			\end{equation}
			\item 对于正态分布$X\sim N(\mu,\sigma^2)$，有
			\begin{equation}
			\phi(t)=e^{i\mu t-\frac{\sigma^2 t^2}{2}}
			\end{equation}
		\end{enumerate}
	\end{theorem}
	\begin{proof}
		\begin{enumerate}
			\item 二项分布的分布列为
			\begin{equation}
			P(X=k)=\begin{pmatrix}
			n\\k
			\end{pmatrix}p^k(1-p)^{n-k}
			\end{equation}
			从而
			\begin{equation}
			\phi(t)=\sum_{k=0}^n e^{itk}\begin{pmatrix}
			n\\k
			\end{pmatrix}p^k(1-p)^{n-k}
			=\sum_{k=0}^n \begin{pmatrix}
			n\\k
			\end{pmatrix}(pe^{it})^k(1-p)^{n-k}
			=(1-p+pe^{it})^n
			\end{equation}
			
			\item 泊松分布的分布列为
			\begin{equation}
			P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda}
			\end{equation}
			从而
			\begin{equation}
			\phi(t)=\sum_{k=0}^{\infty}e^{itk}\frac{\lambda^k}{k!}e^{-\lambda}=e^{-\lambda}\sum_{k=0}^{\infty}\frac{(\lambda e^{it})^k}{k!}=e^{\lambda(e^{it}-1)}
			\end{equation}
			
			\item 几何分布的分布列为
			\begin{equation}
			P(X=k)=(1-p)^{k-1}p
			\end{equation}
			从而
			\begin{equation}
			\phi(t)=\sum_{k=1}^{\infty}(1-p)^{k-1}pe^{itk}=pe^{it}\sum_{k=0}^{\infty}((1-p)e^{it})^k=\frac{pe^{it}}{1-(1-p)e^{it}}
			\end{equation}
			
			\item 前面曾用母函数法证明了帕斯卡分布是由$r$各几何分布独立地加起来的，因此它的特征函数也是几何分布特征函数的$r$次方：
			\begin{equation}
			\phi(t)=\phi_{G}^r=\left(\frac{pe^{it}}{1-(1-p)e^{it}}\right)^r
			\end{equation}
			
			\item 对于均匀分布，我们有
			\begin{equation}
			\phi(t)=\int_{a}^{b}\frac{e^{itx}}{b-a}dx=\frac{e^{ibt}-e^{ita}}{it(b-a)}
			\end{equation}
			
			\item 对于指数分布，我们有
			\begin{equation}
			\phi(t)=\int_{0}^{+\infty}\lambda e^{itx-\lambda x}dx=\frac{\lambda}{\lambda - it}
			\end{equation}
			
			\item 对于伽马分布，我们有
			\begin{equation}
			\phi(t)=\int_{0}^{+\infty}\frac{\beta^{\alpha}}{\Gamma(\alpha)}x^{\alpha -1}e^{-\beta x}e^{itx}dx
			\end{equation}
			令$y=(\lambda -it)x$，有
			\begin{equation}
			\phi(t)=\int_{0}^{+\infty}\frac{1}{\Gamma(\alpha)}\left(1-\frac{it}{\beta}\right)^{-\alpha}y^{\alpha -1}e^{-y}dy=\left(1-\frac{it}{\beta}\right)^{-\alpha}
			\end{equation}
			
			\item 对于标准正态分布$N(0,1)$，有
			\begin{equation}
			\phi(t)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{+\infty}e^{itx}e^{-\frac{x^2}{2}}dx
			\end{equation}
			对含参积分求导并分部积分得
			\begin{equation}\begin{aligned}
			\frac{d\phi(t)}{dt}&=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{+\infty}ixe^{itx}e^{-\frac{x^2}{2}}dx=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{+\infty}e^{itx}d\left(-e^{-\frac{x^2}{2}}\right)\\
			&=-\left. \frac{i}{\sqrt{2\pi}}e^{itx-\frac{x^2}{2}}\right|_{-\infty}^{+\infty}-\frac{t}{\sqrt{2\pi}}\int_{-\infty}^{+\infty}e^{itx}e^{-\frac{x^2}{2}}dx=-tg(t)
			\end{aligned}\end{equation}
			因此$\phi(t)$是常微分方程
			\begin{equation}
			\frac{d\phi(t)}{dt}+t\phi(t)=0
			\end{equation}
			的解。根据特征函数的性质，其初值条件为$\phi(0)=1$。故用分离变量法可得
			\begin{equation}
			\phi(t)=e^{-\frac{t^2}{2}}
			\end{equation}
			这个结果是预料之中的，毕竟正态分布的傅里叶变换就是其本身。再换元即可得对于正态分布$N(\mu,\sigma)$的特征函数是
			\begin{equation}
			\phi(t)=e^{it\mu-\frac{\sigma^2t^2}{2}}
			\end{equation}
		\end{enumerate}\qed
	\end{proof}

	特征函数对于独立随机变量的和即为其特征函数的乘积这个性质，也可以用于证明随机变量的独立性。例如，可以用于证明正态分布关于$\mu$和$\sigma^2$的可加性，以及伽马分布关于$\alpha$的可加性。此外，特征函数的收敛性质请见下一章中心极限定理一节。
	
	随机向量的特征函数可以由一维情形推广开来：
	\begin{definition}[随机向量的特征函数]
		设$\vec{X}=(X_1,\cdots,X_n)$是随机向量，$\vec{t}\in\mathbb{R}^n$，则$\vec{X}$的特征函数是
		\begin{equation}
		\phi(\vec{t})=Ee^{i\vec{t}\cdot\vec{X}}
		\end{equation}
	\end{definition}

	\section{多元正态分布}
	\begin{definition}[$n$维正态分布]
		设$\vec{\mu}=(\mu_1,\cdots,\mu_n)^T$是常向量，$B_{n\times m}$是常数矩阵，$\epsilon_1,\cdots,\epsilon_m$是相互独立且服从标准正态分布的随机变量，记$\vec{\epsilon}=(\epsilon_1,\cdots,\epsilon_m)^T$，以及$\vec{X}=(X_1,\cdots,X_n)^T$。如果$\vec{X}=\vec{\mu}+B\vec{\epsilon}$，则称$\vec{X}$服从$n$维正态分布，记为$X\sim N(\vec{\mu},BB^T)$
	\end{definition}
	显然，由于$\vec{\epsilon}$的各个分量独立且服从标准正态分布，因此其协方差矩阵$\Sigma=E\vec{\epsilon}\,\vec{\epsilon}^T=I_m$是$m$维单位矩阵。因此，服从多元正态分布的随机向量$X$的协方差矩阵为
	\begin{equation}
	\Sigma=E(\vec{X}-\vec{\mu})(\vec{X}-\vec{\mu})^T=BB^T
	\end{equation}
	这也是多元正态分布中采用参数$BB^T$的理由。
	
	容易知道
	\begin{equation}
	\phi_{\epsilon}(\vec{t})=Ee^{i\vec{t}^T\vec{\epsilon}}=e^{-\frac{\vec{t}^T\vec{t}}{2}}
	\end{equation}
	所以服从多元正态分布的随机向量$X$的特征函数是
	\begin{equation}
	\phi_{X}(\vec{t})=Ee^{i\vec{t}^T\vec{X}}=e^{i\vec{t}^T\vec{\mu}}Ee^{i\vec{t}B\vec{\epsilon}}=e^{i\vec{t}^T\vec{\mu}}e^{-\frac{\vec{t}^T B B^T \vec{t}}{2}}=e^{i\vec{t}^T\vec{\mu}-\frac{\vec{t}^T\Sigma\vec{t}}{2}}
	\end{equation}
	
	多元正态分布具有如下性质：
	\begin{property}
		\begin{enumerate}
			\item 随机向量$\vec{X}=(X_1,\cdots,X_n)^T\sim N(\vec{\mu},\Sigma)$当且仅当对于$\forall\vec{a}=(a_1,\cdots,a_n)^T$，都有
			\begin{equation}
			\vec{a}^T\vec{X}\sim N(\vec{a}^T\vec{\mu},\vec{a}^T\Sigma\vec{a})
			\end{equation}
			
			\item 设随机向量$\vec{X}\sim N(\vec{\mu},\Sigma)$，则$X_1,\cdots,X_n$相互独立，当且仅当$\Sigma$是对角矩阵。
			
			\item 当$\Sigma$正定时，$\vec{X}$是连续型随机向量，且联合密度存在，为
			\begin{equation}
			f(\vec{x})=\frac{1}{(2\pi)^{\frac{n}{2}}\sqrt{\det(\Sigma)}}e^{-\frac{(\vec{x}-\vec{\mu})^T\Sigma^{-1}(\vec{x}-\vec{\mu})}{2}}
			\end{equation}
		\end{enumerate}
	\end{property}
	\begin{proof}
		\begin{enumerate}
			\item 利用特征函数与分布一一对应的关系。$\vec{a}^T\vec{X}$的特征函数是
			\begin{equation}
			\phi_{aX}(t)=Ee^{it\vec{a}^T\vec{X}}=e^{it\vec{a}^T\vec{\mu}-\frac{t\vec{a}^T\Sigma\vec{a}t}{2}}
			\end{equation}
			这正是正态分布$N(\vec{a}^T\vec{\mu},\vec{a}^T\Sigma\vec{a})$的特征函数。
			
			\item 充分性：当$\Sigma$是对角矩阵时，存在$n$维对角矩阵$B$使得
			\begin{equation}
			X_k=B_{kk}\epsilon_k+\mu_k,\quad k=1,\cdots,n
			\end{equation}
			其中$\epsilon_k$相互独立，因此$X_k$也相互独立。
			
			必要性：独立的随机变量必定是不相关的，相互独立的随机变量的协方差本来就是对角矩阵。
						
			\item 形式地来看，设$\vec{\epsilon}$是各个分量独立且服从标准正态分布的随机向量，那么$\vec{X}=\mu+B\vec{\epsilon}$，那么$\vec{X}$取值在$\vec{x}$附近一个体积为$d\vec{x}$的体积元的概率是：
			\begin{equation}
			dF_{\vec{X}}=f_{\vec{X}}(\vec{x})d\vec{x}=f_{\vec{\epsilon}}(\vec{\epsilon})d\vec{\epsilon}=f_{\vec{\epsilon}}(B^{-1}(\vec{x}-\vec{\mu}))\frac{\partial(\epsilon_1,\cdots,\epsilon_n)}{\partial(x_1,\cdots,x_n)}d\vec{x}
			\end{equation}
			因此
			\begin{equation}
			f_{\vec{X}}(\vec{x})=\frac{\partial(\epsilon_1,\cdots,\epsilon_n)}{\partial(x_1,\cdots,x_n)}f_{\vec{\epsilon}}(B^{-1}(\vec{x}-\vec{\mu}))
			\end{equation}
			由于$\vec{\epsilon}$的各分量是独立的，因此
			\begin{equation}
			f_{\vec{\epsilon}}(\vec{y})=\prod_{k=1}^n \frac{1}{\sqrt{2\pi}}e^{-\frac{y_k^2}{2}}=\frac{1}{(2\pi)^{\frac{n}{2}}}e^{-\frac{\vec{y}^T\vec{y}}{2}}
			\end{equation}
			而雅可比矩阵正是
			\begin{equation}
			\frac{\partial(\epsilon_1,\cdots,\epsilon_n)}{\partial(x_1,\cdots,x_n)}=\det(B^{-1})=\frac{1}{\sqrt{\det(\Sigma)}}
			\end{equation}
			最终，我们有
			\begin{equation}
			f_{\vec{X}}(\vec{x})=\frac{1}{(2\pi)^{\frac{n}{2}}\sqrt{\det(\Sigma)}}e^{-\frac{(\vec{x}-\vec{\mu})^T\Sigma^{-1}(\vec{x}-\vec{\mu})}{2}}
			\end{equation}
			我们所经过的一系列手续可以确保
			\begin{equation}
			\int_{\mathbb{R}^n}f_{\vec{X}}(\vec{x})d\vec{x}=1
			\end{equation}
			成立。因此$\vec{X}$是连续型随机向量。
		\end{enumerate}\qed
	\end{proof}
	
	\section{卡方分布}
	\begin{definition}[卡方分布]
		设$X_1,\cdots,X_n$独立同分布，且均服从标准正态分布，称
		\begin{equation}
		Z=\sum_{k=1}^n X_k^2
		\end{equation}
		服从自由度为$n$的卡方分布，记为$Z\sim\chi^2(n)$。
	\end{definition}
	
	事实上，$\chi^2(n)$与$\Gamma(\frac{n}{2},\frac{1}{2})$是等价的。
	\begin{theorem}[卡方分布的密度]\label{卡方分布的密度}
		设随机变量$Z$服从自由度为$n$的卡方分布，$Z\sim\chi^2(n)$，则其具有概率密度
		\begin{equation}
		f_n(z)=\frac{1}{2^{\frac{n}{2}}\Gamma(\frac{n}{2})}z^{\frac{n}{2}-1}e^{-\frac{z}{2}},\quad z\geq 0
		\end{equation}
		从而与$\Gamma(\frac{n}{2},\frac{1}{2})$等价。
	\end{theorem}
	\begin{proof}
		首先，$Y=X_1^2$的分布函数是
		\begin{equation}
		F_Y(y)=\int_{-\infty}^{y}f_Y(y)dy=\int_{-\infty}^{y}\frac{1}{\sqrt{2\pi}}e^{-\frac{y}{2}}\frac{1}{2\sqrt{y}}dy
		\end{equation}
		(与求多元正态分布密度同样的手法)从而密度为
		\begin{equation}
		f_Y(y)=\frac{1}{2\sqrt{2\pi}}y^{-\frac{1}{2}}e^{-\frac{y}{2}}
		\end{equation}
		正是$\Gamma(\frac{1}{2},\frac{1}{2})$的密度。
		从而$Y$的特征函数是
		\begin{equation}
		\phi_Y(t)=\left(1-2it\right)^{-\frac{1}{2}}
		\end{equation}
		然后利用$Z=Y_1+\cdots+Y_n$，其特征函数是
		\begin{equation}
		\phi_{Z}(t)=\prod_{k=1}^n\left(1-2it\right)^{-\frac{1}{2}}=\left(1-2it\right)^{-\frac{n}{2}}
		\end{equation}
		特征函数和分布是一一对应的，从而$Z\sim \Gamma(\frac{n}{2},\frac{1}{2})$
		\qed
	\end{proof}

	卡方分布在统计中具有重要地位。
	\begin{theorem}[样本均值和样本方差]
		设$X_1,\cdots,X_n$独立同分布，$X_i\sim N(0,1)$，
		\begin{equation}
		\bar{X}_n=\frac{1}{n}\sum_{i=1}^n X_i,\quad s^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X}_n)^2
		\end{equation}
		分别是样本均值和样本方差。则$\bar{X}_n$与$s^2$独立，且
		\begin{equation}
		(n-1)s^2\sim\chi^2(n-1)
		\end{equation}
	\end{theorem}
	\begin{proof}
		设正交矩阵$T$满足
		\begin{equation}
		T_{1k}=\frac{1}{\sqrt{n}},\quad k=1,\cdots,n
		\end{equation}
		随机向量$\vec{X}=N(0,I_n)$，从而随机向量
		\begin{equation}
		\vec{Y}=T\vec{X}\sim N(0,I_n)
		\end{equation}
		从而$Y_1,\cdots,Y_n$独立同分布且均服从标准正态分布，并且
		\begin{equation}
		Y_1=\sqrt{n}\bar{X_n}
		\end{equation}
		从而成功利用正交矩阵的变换将样本均值变为了一个随机变量的同时，保持了其余分量独立且服从标准正态分布。注意到，正交变换保持度量，即
		\begin{equation}
		\sum_{i=1}^nX_i^2=\sum_{i=1}^nY_i^2
		\end{equation}
		从而
		\begin{equation}
		(n-1)s^2=\sum_{i=1}^n(X_i-\bar{X_n})^2=\sum_{i=1}^n X_i^2-n\bar{X_n}^2=\sum_{i=1}^n Y_i^2-Y_1^2=\sum_{i=2}^nY_i^2\sim\chi^2(n-1)
		\end{equation}
		并且，$(n-1)s^2$作为$Y_2,\cdots,Y_n$的函数，与$Y_1$独立。所以样本均值与样本方差独立。
		
		\qed
	\end{proof}
	这个定理告诉我们，如果样本是独立且同为正态分布，样本均值就和样本方差互不影响。而且这个结论也能得到样本方差的无偏性结论。
	
	